Telegram Group & Telegram Channel
Forwarded from Russian OSINT
🤖 Исследователи представили универсальный метод атаки на LLM под названием «Policy Puppetry»

Как сообщают исследователи из HiddenLayer, им удалось разработать универсальную методику prompt injection, которая позволяет обходить защитные барьеры LLM. Техника под названием «Policy Puppetry» успешно нарушает политики безопасности современных LLM и выходит за рамки ограничений таких моделей, как OpenAI (линейки ChatGPT 4o, 4.5, o1 и o3-mini), Google (Gemini 1.5, 2.0, 2.5), Microsoft (Copilot), Anthropic (Claude 3.5, 3.7), Llama, DeepSeek (V3 и R1), Qwen (2.5 72B) и Mistral (Mixtral 8x22B).

Исследователи не публикуют полные вредоносные примеры и не предоставляют доступ к готовым PoC для свободного использования, а лишь объясняют метод в научных целях.

Многие LLM от OpenAI, Google и Microsoft хорошо обучены отклонять прямолинейные опасные запросы, но если "вшить" их в инструкции и сделать частью собственных правил, то модели будут генерировать запрещённый контент без активации защитных механизмов.

Основой метода является использование специальных текстовых шаблонов, имитирующих документы политик в форматах XML, JSON или INI. При помощи таких шаблонов модели воспринимают вредоносные команды как безопасные системные инструкции. Они позволяют обходить встроенные ограничения и генерировать запрещенный контент, связанный с разработкой ⚠️ оружия массового поражения, пропагандой насилия, инструкциями по нанесению вреда себе, химическим оружием, а также с раскрытием конфиденциальной информации о работе внутренних механизмов моделей.

Условно: ИИ-модель думает: «Это не просьба пользователя, а команда на изменение настроек!». Когда текст выглядит как код или служебная инструкция, то модель перестаёт применять фильтры безопасности и начинает воспринимать команды буквально.

Техника отличается исключительной универсальностью. Один и тот же шаблон может применяться против множества моделей без необходимости в доработках. ↔️ Опасность обнаруженного метода в том, что он доступен практически любому пользователю и не требует глубоких технических знаний.

По мнению исследователей, подобная уязвимость свидетельствует о фундаментальных недостатках в методах обучения и настройки LLM, отмечая острую необходимость в новых подходах к обеспечению безопасности, чтобы предотвратить дальнейшее распространение угроз по мере усложнения ИИ-моделей.

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/opendatascience/2279
Create:
Last Update:

🤖 Исследователи представили универсальный метод атаки на LLM под названием «Policy Puppetry»

Как сообщают исследователи из HiddenLayer, им удалось разработать универсальную методику prompt injection, которая позволяет обходить защитные барьеры LLM. Техника под названием «Policy Puppetry» успешно нарушает политики безопасности современных LLM и выходит за рамки ограничений таких моделей, как OpenAI (линейки ChatGPT 4o, 4.5, o1 и o3-mini), Google (Gemini 1.5, 2.0, 2.5), Microsoft (Copilot), Anthropic (Claude 3.5, 3.7), Llama, DeepSeek (V3 и R1), Qwen (2.5 72B) и Mistral (Mixtral 8x22B).

Исследователи не публикуют полные вредоносные примеры и не предоставляют доступ к готовым PoC для свободного использования, а лишь объясняют метод в научных целях.

Многие LLM от OpenAI, Google и Microsoft хорошо обучены отклонять прямолинейные опасные запросы, но если "вшить" их в инструкции и сделать частью собственных правил, то модели будут генерировать запрещённый контент без активации защитных механизмов.

Основой метода является использование специальных текстовых шаблонов, имитирующих документы политик в форматах XML, JSON или INI. При помощи таких шаблонов модели воспринимают вредоносные команды как безопасные системные инструкции. Они позволяют обходить встроенные ограничения и генерировать запрещенный контент, связанный с разработкой ⚠️ оружия массового поражения, пропагандой насилия, инструкциями по нанесению вреда себе, химическим оружием, а также с раскрытием конфиденциальной информации о работе внутренних механизмов моделей.

Условно: ИИ-модель думает: «Это не просьба пользователя, а команда на изменение настроек!». Когда текст выглядит как код или служебная инструкция, то модель перестаёт применять фильтры безопасности и начинает воспринимать команды буквально.

Техника отличается исключительной универсальностью. Один и тот же шаблон может применяться против множества моделей без необходимости в доработках. ↔️ Опасность обнаруженного метода в том, что он доступен практически любому пользователю и не требует глубоких технических знаний.

По мнению исследователей, подобная уязвимость свидетельствует о фундаментальных недостатках в методах обучения и настройки LLM, отмечая острую необходимость в новых подходах к обеспечению безопасности, чтобы предотвратить дальнейшее распространение угроз по мере усложнения ИИ-моделей.

@Russian_OSINT

BY Data Science by ODS.ai 🦜






Share with your friend now:
tg-me.com/opendatascience/2279

View MORE
Open in Telegram


Data Science by ODS ai 🦜 Telegram | DID YOU KNOW?

Date: |

Dump Scam in Leaked Telegram Chat

A leaked Telegram discussion by 50 so-called crypto influencers has exposed the extraordinary steps they take in order to profit on the back off unsuspecting defi investors. According to a leaked screenshot of the chat, an elaborate plan to defraud defi investors using the worthless “$Few” tokens had been hatched. $Few tokens would be airdropped to some of the influencers who in turn promoted these to unsuspecting followers on Twitter.

Telegram has exploded as a hub for cybercriminals looking to buy, sell and share stolen data and hacking tools, new research shows, as the messaging app emerges as an alternative to the dark web.An investigation by cyber intelligence group Cyberint, together with the Financial Times, found a ballooning network of hackers sharing data leaks on the popular messaging platform, sometimes in channels with tens of thousands of subscribers, lured by its ease of use and light-touch moderation.Data Science by ODS ai 🦜 from jp


Telegram Data Science by ODS.ai 🦜
FROM USA